#로컬 추론

단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현

알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.

로컬 추론 오픈소스 LLM vLLM

Hacker News • 105일 전

IMP 9

구글 제마 4, 아이폰에서 오프라인 완벽 구동

구글의 오픈소스 AI 모델인 'Gemma 4'가 아이폰 내 GPU를 활용해 네트워크 연결 없이도 완벽하게 오프라인 구동됩니다. 단순한 텍스트 처리를 넘어 이미지 인식, 음성 대화, 확장 가능한 스킬(Skills) 프레임워크를 지원하며, 특히 엔터프라이즈 환경에서 데이터 프라이버시가 필수적인 의료 및 산업 현장에 실질적인 솔루션을 제공한다는 점에서 매우 중요합니다.

온디바이스 AI 구글 제마 로컬 추론

Hacker News • 106일 전

IMP 8

AMD, 온디바이스 로컬 구동 AI 에이전트 프레임워크 공개

AMD가 자체 하드웨어(NPU, GPU)에 최적화된 오픈소스 AI 에이전트 프레임워크 'GAIA'를 공개했습니다. 이 프레임워크는 파이썬과 C++를 모두 지원하며, 클라우드나 외부 API 키 없이도 데이터를 기기 내에 머물게 하여 완벽한 프라이버시를 보장합니다. 개발자는 단 두 번의 명령어만으로 오프라인 문서 질의응답, 음성 인식 및 생성, 코드 작성, 사용자 에이전트 구축 등을 로컬 환경에서 구현할 수 있습니다.

온디바이스 AI AMD AI 에이전트

r/LocalLLaMA • 108일 전

IMP 8

미니맥스(m2.7) 맥 전용 모델, 63GB는 88% 89GB는 95%

Mac 전용 MiniMax m2.7 양자화 모델 두 종이 공개되었습니다. 63GB 버전은 MMLU 88%, 89GB 버전은 95%를 기록하며 성능을 입증했습니다. 속도 역시 M5 Max 기준 초당 약 50토큰, 프롬프트 처리 400으로 최상위 클로드 모델(Sonnet 4.5)에 근접하는 로컬 구동 성능을 보여줍니다.

MiniMax 양자화 로컬 추론